A PITCH DETERMINATION AND VOICED/UNVOICED DECISION ALGORITHM FOR NOISY SPEECH by
نویسندگان
چکیده
The design of a pitch tracking system for noisy speech is a challenging and yet unsolved issue due to the association of "traditional" pitch determination problems with those of noise processing. We have developed a multi-channel pitch determination algorithm (PDA) that has been tested on three speech databases (0dB SNR telephone speech, speech recorded in a car and clean speech) involving fifty-eight speakers. Our system has been compared to a multi-channel PDA based on auditory modelling (AMPEX), to hand-labelled and to laryngograph pitch contours. Our PDA is comprised of an automatic channel selection module and a pitch extraction module that relies on a pseudo-periodic histogram (combination of normalised scalar products for the less corrupted channels) in order to find pitch. Our PDA excelled in performance over the reference system on 0dB telephone and car speech. The automatic selection of channels was effective on the very noisy telephone speech (0dB) but performed less significantly on car speech where the robustness of the system is mainly due to the pitch extraction module in comparison to AMPEX. This paper reports in details the voiced/unvoiced, unvoiced/voiced performance and pitch estimation errors for the proposed PDA and the reference system while utilising three speech databases. Résumé La conception d’un système de suivi de fréquence glottale, pour de la parole bruitée, est complexe et constitue un problème qui est loin d’être résolu. En effet, le traitement en milieu bruité est une difficulté supplémentaire qui s’ajoute à celle du suivi de la fréquence glottale. On propose ici un algorithme de détermination de fréquence glottale qui est basé sur une analyse multicanaux. Cet algorithme a été testé sur 3 bases de données (parole téléphonique bruitée artificiellement à 0dB, enregistrement dans une automobile et parole “propre”) regroupant cinquante-huit locuteurs. Le système a été comparé à AMPEX (modèle auditif) et à des contours de fréquence glottale obtenus de façon manuelle ou par laryngogrammes. Notre algorithme inclut un module de sélection automatique des canaux significatifs ainsi qu’un module d’extraction de fréquence glottale basé sur un pseudo-histogramme périodique (obtenu par combinaison de produits scalaires normalisés des signaux provenant des canaux sélectionnés). Sur les enregistrements bruités (voiture et parole téléphonique à 0dB), le système proposé dépasse AMPEX. Il a été observé que la sélection automatique des canaux améliore les 4 J. Rouat, UQAC PDA and V/UV decisions with noise performances sur la parole à 0dB mais pas sur les enregistrements en véhicule automobile. L’article décrit le système proposé ainsi que les performances en termes de décisions voisés/non voisés, d’erreur fine et grossière. Zusammenfassung Der Entwurf eines Systems zur Grundfrequenzanalyse von verrauschter Sprache ist eine anspruchsvolle und bisher noch nicht zufriedenstellend gelöste Aufgabe, da hierbei "traditionelle" Probleme bei der Grundfrequenzextraktion mit Problemen bei der Verarbeitung verrauschter Signale zusammentreffen. Wir stellen einen MehrkanalGrundfrequenzalgorithmus (PDA) vor, der mit drei Sprachdatensammlungen mit ingesamt 58 Sprechern getestet worden ist (Telefonsprache mit 0dB SNR, Sprachsignale, die im Auto aufgezeichnet wurden, sowie unverrauschte Sprachsignale). Das System wurde verglichen mit dem AMPEX System so wie mit manuell erstellten Referenzkonturen und Grundfrequenzkonturen, welche aufgrund des Laryngosignals erstellt wurden. AMPEX ist ein Mehrkanal-PDA, der auf einem Modell des menschlichen Gehörs beruht. Unser PDA besteht aus einem Modul zur automatischen Kanalauswahl und einem Grundfrequenzextraktionsmodul, das zur Extraktion ein pseudoperiodisches Histogramm benutzt (Kombination der normalisierten Skalarprodukte der ausgewählten Kanäle). Das System erwies sich gegenüber dem Referenzsystem bei den 0dB Telefonsignalen und bei den im Auto aufgenommenen Signalen überlegen. Bei den stark verrauschten Telefonsignalen (0 dB) führte die automatische Kanalauswahl zur Verbesserung, während bei den im Auto aufgezeichneten Signalen die Robustheit des Gesamtsystems hauptsächlich auf ein -im Vergleich zum AMPEX-System -besseres Verhalten des Grundfrequenzextraktionsmoduls zurückzuführen ist. Ausführlich geht der Artikel ein auf die Performanz des Systems und des Referenzsystems für die drei Sprachsammlungen in bezug auf Stimmhaft/Stimmlos-Fehler, Stimmlos/StimmhaftFehler und Grundfrequenzfehler.
منابع مشابه
A pitch determination and voiced/unvoiced decision algorithm for noisy speech
We propose a multi-channel pitch determination algorithm (PDA) that has been tested on three speech databases (0dB SNR telephone speech, speech recorded in a car and clean speech) involving fifty-eight speakers. The system has been compared to AMPEX [9], to hand-labelled and laryngograph pitch contours. Our PDA comprises an automatic channel selection module and a pitch extraction module that r...
متن کاملCepstrum-based pitch detection using a new statistical V/UV classification algorithm
An improved cepstrum-based voicing detection and pitch determination algorithm is presented. Voicing decisions are made using a multifeature voiced/unvoiced classification algorithm based on statistical analysis of cepstral peak, zero-crossing rate, and energy of short-time segments of the speech signal. Pitch frequency information is extracted by a modified cepstrum-based method and then caref...
متن کاملA Comprehensive Noise Robust Speech Parameterization Algorithm Using Wavelet Packet Decomposition-Based Denoising and Speech Feature Representation Techniques
This paper concerns the problem of automatic speech recognition in noise-intense and adverse environments. The main goal of the proposed work is the definition, implementation, and evaluation of a novel noise robust speech signal parameterization algorithm. The proposed procedure is based on time-frequency speech signal representation using wavelet packet decomposition. A new modified soft thre...
متن کاملDecomposition of Speech into Voiced and Unvoiced Components Based on a Kalman Filterbank
We present a novel method for decomposing speech into signals representing the voiced and unvoiced components of speech. The method involves first demodulating the variations in spectral envelope, energy and pitch, and then applying a bank of Kalman filters to separate the harmonic and non-harmonic components of the signal. The use of Kalman filters relies on a state-space representation of the...
متن کاملEnhanced pitch tracking and the processing of F0 contours for computer aided intonation teaching
A comparative evaluation of several pitch determination algorithms (PDAs) is presented. Fundamental frequency estimates, F0, are compared with laryngeal frequency estimates , Lx. An algorithm is presented which enables Lx contours to be generated from laryngograph data. We seek the most accurate method of F0 extraction in order to minimise errors propagating into subsequent prosodic analysis. T...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
عنوان ژورنال:
دوره شماره
صفحات -
تاریخ انتشار 1997